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一 种 深度 Q 网 络 的 改进 算法 
HRH, de di 


(贵州 大 学 计算 机 科学 与 技术 学 院 , 贵阳 550025) 


摘 要 : 深度 Q 网 络 存在 严重 的 过 估计 问题 ， 导 致 智能 体 寻 找 最 优 策略 的 能 力 下 降 。 为 了 缓解 深度 Q 网 络 中 存在 的 过 

估计 问题 ， 提 出 一 个 更 正 函 数 用 于 对 深度 Q 网 络 中 的 评价 函数 进行 改进 ， 当 选择 的 动作 为 最 优 动作 时 更 正 函 数 为 1， 
不 对 当前 状态 一 动作 值 进行 修改 ， 当 选择 的 动作 不 是 最 优 动作 时 更 正 函 数 小 于 1， 缩 小 当前 状态 一 动作 值 ， 从 而 使 得 
最 优 状态 一 动作 值 与 非 最 优 状态 一 动作 值 的 差异 增 大 ,减少 过 估计 问题 的 影响 。 实 验证 明 改 进 的 算法 在 Playing Atari 
2600 n d Pp 说 明 改 进 的 算法 比 深度 Q 网 络 寻 得 了 更 优 的 策略 。 
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Improved algorithm for deep Q net 


Xia Zongtao, Qin Jin 
(College of Computer Science & Technology Guizhou University, Guiyang 550025, China) 


Abstract: There is a serious overestimation problem in deep Q net, which leads to reduce the ability of the agent to find the 


optimal strategy. In order to relieve the overestimation in deep Q net, this paper proposed a correction function to improve the 
evaluation function of Deep Q Net. when the selected action is the optimal action, the correction function is 1, and the current 
state-action value is not modified. When the selected action is not the optimal action, the correction function is less than 1, and 
the current state-action value is reduced. Thus the difference between non-optimal state-action values increases, reducing the 
impact of overestimation. Experiments show that the improved algorithm achieves better performance in Playing Atari 2600 and 
OpenAI Gym. indicating that the improved algorithm could find a better strategy than deep Q net. 
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0 az 示 所 有 的 状态 -动作 空间 , 在 Playing Atari 2600 视频 游戏 中 取得 
了 巨大 的 成 功 ， 在 49 个 视频 游戏 中 取得 了 超过 人 类 专业 玩家 

强化 学 习 的 基本 思想 是 通过 智能 体 不 断 的 采取 动作 与 环境 ”的 成 绩 ， 但 是 将 强化 学 习 和 类 似 神经 网 络 的 函数 逼近 结合 会 带 
进行 交互 ， 从 而 提高 智能 体 对 未 知 环境 的 适应 能 力 ， 最 大 化 从 ”来 过 估计 问题 由 , 造成 最 后 的 模型 所 选择 的 策略 不 是 最 优 策略 。 


环境 中 所 获得 的 奖赏 ， 最 终 获 得 最 优 策略 叫 。 强 化 学 习 在 人 工 Double DQNI 通 过 将 动作 的 选择 和 评价 进行 解 耦合 ， 从 而 缓和 
智能 领域 里 面 有 着 广泛 的 应 用 ， 例 如 :工业 制造 名、 路 径 规 划 “了 过 估计 问题 ， 但 是 却 带 来 了 欠 估 计 问 题 P0，Speedy Q- 
小 、 游 戏 博弈 外 。 传 统 的 强化 学 习 算 法 如 Q-leamingP!, Sarsa learning DENNAS k 步 以 及 第 k-1 步 的 状态 -动作 值 来 更 新 
都 是 利用 Q 表 存 储 Q 值 ， 因 此 只 能 处 理 状态 空间 或 动作 空间 — Q 表 ， 获 得 了 更 快 的 收敛 速度 ， 以 及 部 分 解决 了 过 估计 问题 ， 

较 小 的 问题 ， 在 状态 空间 或 动作 空间 较 大 的 问题 上 ， 因 为 无 法 但 是 遗憾 的 是 , 利用 神经 网 络 对 Speedy Q-learning 进行 建 模 后 ， 
构建 足够 大 的 Q R, 所 以 没有 办 法 完整 的 表示 状态 空间 以 及 动 相 比 较 深度 Q 网 络 , 并 没有 获得 更 好 的 性 能 ; 平均 深度 Q 网 络 
作 空间 。 为 了 让 强化 学 习 算 法 能 够 处 理 状态 空间 以 及 动作 空间 ”[ 史 ,不 仅仅 利用 当前 网 络 去 获取 目标 值 ， 而 是 利用 过 去 步 的 
都 较 大 的 问题 , 可 以 采用 非 线 性 函数 评估 模型 实现 对 Q 表 的 建 ”网 络 一 同 获取 目标 值 并 取 平 均 , 最 后 取 最 大 值 作 为 新 的 目标 值 ， 
Bi. DeepMind 在 强化 学 习 中 引入 了 深度 学 习 的 思想 中, 提出 了 结果 表明 ,平均 深度 Q 网 络 取得 了 更 高 的 平均 奖赏 值 ， 但 是 却 
深度 Q 网 络 , 将 深度 学 习 的 感知 能 力 和 强化 学 习 的 决策 能 力 相 ”存在 训练 开销 大 ， 训 练 时 间 久 的 问题 ，Bias-Corrected Q- 
结合 , 解决 了 Q 表 无 法 覆盖 完整 的 状态 -动作 空间 的 问题 。 深度 learning03]， 通 过 构造 一 个 更 正 项 来 抵消 Max 算 子 所 带 来 的 平 
Q 网 络 利 用 卷 积 神经 网 络 实现 了 对 Q 表 的 建 模 ， 从 而 完整 的 表 ” 均 误差 ,实验 证 明 , Æ roulette 游戏 中 取得 了 比 简单 的 Q-learning 
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以 及 Speedy Q-learning 更 高 的 奖赏 值 ， 但 是 Bias-Corrected Q- 
learning 更 适合 处 理 动作 空间 较 大 的 问题 ， 不 适合 处 理 动作 空 
间 普 遍 较 小 的 Playing Atari 2600 视频 游戏 ， 因 此 并 不 适合 用 来 
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Q'(s,a) E, Lt |5$,— 5a, —a (2) 
强化 学 习 中 常常 使 用 Bellman 方程 来 解决 马尔 可 夫 决 策 问 


对 深度 Q 网 络 进行 改造 ; 优势 学 习 04 可 以 在 一 定 程度 上 缓解 过 题 ， 考 虑 到 Bellman 方程 的 状态 值 函 数 为 

估计 问题 ， 通 过 缩小 非 最 优 值 ， 从 而 进一步 保证 最 优 值 和 次 优 Vider dar desc Pat nd ve! 6) 
值 的 次 序 不 会 因为 估计 误差 以 及 Max 算 子 的 存在 而 发 生 改变 ， m 

保证 强化 学 习 算 法 所 学 习 到 的 策略 是 最 优 策略 ， 但 是 优势 学 习 7 为 智能 体 所 采取 的 策略 ， 在 此 为 确定 性 策略 ， 可 以 视 为 
对 于 不 同 非 最 优 值 的 缩小 是 不 合理 的 本文 设 计 一 种 新 的 方法 ， ”一 个 从 状态 空间 到 动作 空间 的 映射 ， 记 4 = r(s) ， 表 示 在 状态 


使 得 和 最 优 值 差 值 较 小 的 非 最 优 值得 到 较 大 的 缩小 ， 和 最 优 值 
差 值 较 大 的 非 最 优 值得 到 较 小 的 缩小 ,利用 神经 网 络 进行 建 模 ， 
应 用 到 深度 Q 网 络 中 产生 改进 算法 
deep Q net)， 实 验证 明 ，corrected-DQN 学 习 
取得 了 更 高 的 回报 。 


1 ”深度 强化 学 习 


1.1 强化 学 习 

强化 学 习 是 一 种 从 状态 映射 到 动作 的 学 习 ， 通 过 与 环境 的 
交互 ,采集 到 真实 环境 中 的 样本 , 并 从 所 采集 到 的 样本 中 学 习 ， 
以 试 错 的 方式 学 习 到 最 优 策略 。 强 化 学 习 系 统一 般 包含 智能 体 
agent 以 及 环境 两 个 部 分 。 智 能 体 不 断 的 与 环境 进行 交互 , 在 环 
境 中 执行 动作 ， 到 达 一 个 新 的 状态 ， 并 得 到 环境 的 奖励 ， 直 到 
智能 体 最 终 到 达 一 个 环境 的 吸收 状态 ， 此 时 不 再 选择 动作 ， 同 
时 状态 也 不 再 发 生 改变 。 反 复 进 行 这 个 过 程 ， 使 智能 体 最 终 学 
到 一 个 最 优 策略 ， 强 化 学 习 的 决策 过 程 基于 马尔 可 夫 决 策 过 程 
5， 通 常 假设 强化 学 习 任 务 满足 马尔 可 夫 性 ， 一 个 马尔 可 夫 决 
策 过 程 可 以 定义 为 一 个 四 元 组 (8,4,P,R) ， 其 中 5 为 智能 体 所 
能 达到 的 所 有 状态 空间 的 集合 A 表示 智能 体 所 能 选择 的 所 有 
动作 空间 的 集合 , 即 所 有 可 能 的 动作 a€ As P 为 状态 转移 概率 ， 
即 智能 体 在 一 个 状态 下 采取 一 个 动作 4 后 达到 下 一 个 状态 的 概 
率 ， 记 为 P(s'|s,a) ; 其 中 s' 为 状态 5 的 下 一 步 状 态 ，R 为 奖赏 
函数 ， 智 能 体 在 状态 5 下 采取 动作 4 所 达到 下 一 个 状态 s' 时 所 
获得 的 立即 奖赏 ， 记 为 7(s,a) ; 一 般 来 讲 ，P 和 RR 在 一 个 强化 
学 习 任务 中 常常 是 未 知 的 ,需要 智能 体 不 断 在 环境 中 进行 试 错 ， 
不 断 地 探索 。 

强化 学 习 任务 通常 使 用 值 函数 来 表示 在 一 个 状态 上 执行 一 
个 策略 将 来 将 会 取得 的 累积 奖赏 ， 值 函数 可 以 分 为 两 类 ， 状 态 
值 函数 以 及 状态 -动作 值 函数 , 状态 值 函数 用 V(s) 来 表示 , 表示 
从 状态 s 开始 ， 智 能 体 所 获得 的 累积 期 望 回 报 ， 状 态 值 函数 
V(s) 定义 为 


: Corrected-DQN (corrected 
到 了 更 优 的 策略 ， 


Fi 


Hu 


V'(s) - E, 3 au c (1) 


其 中 : 7 为 折扣 因子 ，Y Ee[0,1，x 表示 随 着 1 的 增加 ， 离 当前 
状态 越 远 的 状态 对 累计 奖赏 的 影响 越 来 越 小 。 状态 -动作 值 函 数 
] Q"(s,a) 来 表示 , 在 状态 -动作 值 函数 中 不 仅 知道 初始 状态 5 ， 
还 知道 初始 状态 下 所 采取 的 动作 4 ， 定 义 为 


M 


3 下， 执行 策略 所 得 到 的 动作 为 4 。 
理想 的 策略 应 该 最 大 化 累积 奖赏 ， 此 时 的 策略 称 为 最 优 策 


略 ， 一 个 强化 学 习 任 务 可 能 有 多 个 最 优 策略 ， 记 为 
$E o-— arg max Š V^ Cs) (4) 
基于 最 优 策 略 交 的 状态 值 函数 为 最 优 状态 值 函 数 ， 记 为 
VG) -V"G) = max) P ssa r sa +V” s' (5) 
基于 最 优 策略 x* 的 状态 -动作 值 函数 为 最 优 状态 -动作 值 函 
数 ， 记 为 


Q sa =Q" sa =) P s|sa r sa +ymaxQ” s^ a' (6) 


通过 
E [RII 


在 传统 的 强化 学 习 算 法 中 ， 
建立 一 张 Q 表 的 方式 来 存储 CCs,a) 。 这 在 小 规模 离散 空 
强化 学 习 任务 上 是 适用 的 ， 但 是 当 状态 空间 以 及 动作 空间 过 
巨大 时 ， 受 到 硬件 条 件 的 限制 ， 无 法 建立 Dp 
存储 Q'(s,a) , 所 以 需要 使 用 函数 逼近 对 Q 表 建 模 , 最 流行 的 做 
法 就 是 利用 深度 学 习 的 思想 实现 对 Q 表 的 建 模 。 

1.2 深度 强化 学 习 

深度 强化 学 习 采 用 神经 网 络 作为 函数 近似 的 模型 ， 通 过 强 
化 学 习 反 复 调整 神经 网 络 的 参数 ， 最 终 实 现 神经 网 络 对 Q 表 的 
建 模 。 深 度 强化 学 习 通 过 将 强化 学 习 的 决策 能 力 和 深度 学 习 的 
感知 能 力 结合 起 来 ， 利 用 深度 学 习 将 大 规模 原始 输入 数据 进行 
简单 但 是 非 线 性 的 变换 ， 转 换 为 更 高 层次 的 抽象 表达 ， 从 而 发 
现 数据 内 在 的 规律 ， 然 后 通过 强化 学 习 ， 反 复 更 新 神经 网 络 ， 
使 得 神经 网 络 能 够 较 好 的 实现 对 Q 表 的 拟 合 , 智能 体 通过 神经 
网 络 能 够 获得 一 个 较为 理想 的 策略 。DeepMind 团队 在 2013 最 
先 提出 深度 Q 网 络 叫 ， 成 功 实现 了 深度 学 习 中 的 CNNU4 和 强 
化 学 习 中 的 Q-learning 的 结合 , 在 49 个 Playing Atari 2600 视频 
游戏 之 中 ， 取 得 了 比 人 类 玩家 更 高 的 得 分 。 之 后 又 出 现 了 诸多 
变种 ， 例 如 深度 双 Q WKO, RETER Q 网 络 [171。 


2 ”改进 的 深度 强化 学 习 算法 


2.4 过 估计 问题 

将 神经 网 络 和 强化 学 习 技术 相 结合 会 带 来 过 估计 问题 ， 神 
经 网 络 等 函数 评估 模型 的 输出 值 含有 估计 误差 ， 因 此 函数 评估 
模型 的 估计 值 并 不 能 真实 的 反映 真实 值 ， 它 们 之 间 总 是 存在 误 
差 ; 同时 ， 大 部 分 的 强化 学 习 算 法 大 都 使 用 Max 算 子 来 选择 当 


例如 Q-learning, Sarsa. 
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前 状态 下 的 最 优 动作 ， 当 估计 值 与 真实 值 之 间 的 误差 为 均匀 分 
布 时 , 通过 Max 算 子 所 选择 的 动作 便 有 可 能 不 是 智能 体 在 当前 
状态 下 所 选择 的 最 优 动作 ， 模 型 总 是 会 倾向 选择 被 放大 的 状态 
-动作 值 所 对 应 的 动作 。 在 同一 个 状态 所 对 应 的 不 同 状 态 -动作 
值 差异 较 小 的 情况 下 ， 模 型 可 能 会 将 当前 状态 的 非 最 优 动 作 选 
出 ， 从 而 导致 模型 最 终 无 法 学 习 到 一 个 最 优 的 策略 ， 造 成 智能 
体 的 性 能 下 降 。 

假设 函数 评估 模型 在 状态 s 下 采取 动作 a 所 带 来 的 估计 值 
K Q""""(sa), HEMEN Q'" (sa) ， 函 数 评估 模型 所 带 来 的 评 
估 误 差 由 表示 , fn Y? 均匀 分 布 在 [2,s] E, e 为 误差 的 上 
界 ， 可 以 得 到 以 下 证 明 国 ; 


m 


games a) m Q"** (s,a) TY? (7) 
估计 值 与 真实 值 在 状态 * 下 的 误差 8, 为 


B, - (rt + ymax,Q"" (s' a?) - (rf  ymax,Q"*" (s.a?) 
yr (max, Q" (s?) mas (no 
= (max, (Q (sa) +Y ) - max," (s,a')) 
- y(max,Y; ) 
因为 YY 为 [-e,s] 上 的 均匀 分 布 ， 所 以 E[Y*]=0 ， 所 以 
P(max Y* > 0) > P(max Y‘ <0) 。 


s often 
结论 : CAEYC]-0 8, Ya > E[B,]>0 


fien 


即 Qm s a) T rere (s.a) (9) 


估计 值 会 经 常 大 于 真实 值 ， 即 产生 了 过 估计 问题 。 
传统 的 Q-learning 算法 仅仅 是 通过 计算 最 优 状 态 值 函数 
V'(s) 来 评估 并 选择 当前 状态 下 的 最 优 动 作 ， 假 设 在 状态 5s 下， 
智能 体 只 有 aa, 两 个 动作 可 以 选择 ， 其 中 QGa) > Qla), 
所 以 在 状态 s F, a 为 最 优 动作 ， 为 次 优 动 作 。 由 于 函数 评 
估 模 型 本 身 带 有 均匀 误差 = ， 所 以 可 能 出 现 以 下 情形 ， 
Q(s,a)-e <Q(s,a,)+e (10) 
此 时 通过 Max 选择 最 优 动 作 , 智能 体会 将 次 优 动作 a, 而 


ChinaXiv& fER MUN 


夏 宗 涛 ， 等 : 一 种 深度 Q 网 络 的 改 


在 一 定 程度 上 会 降低 差 值 增长 的 效果 。 所 以 本 文 设计 一 种 新 的 
方法 ,引入 一 个 更 正 函数 ,在 将 所 有 的 非 最 优 值 降低 的 前 提 下 ， 
使 得 和 最 优 值 差 值 较 小 的 非 最 优 值得 到 较 大 的 缩小 ， 和 最 优 值 
差 值 较 大 的 非 最 优 值得 到 较 小 的 缩小 。 

定义 一 个 更 正 函数 : 


1 24 Q(s,u)- max Q(s.a) 


B(s,u)- peo 否则 P 


其 中 : be€(0D, ， 由 指数 函数 的 性 质 可 知 ， 当 底数 上 <0 时 ， 随 
着 QG.u) ZAAK, beO 的 值 逐 渐 缩 小 , 即 和 最 优 值 越 接近 


的 非 最 优 值 的 更 正 函 数 越 小 ， 当 QR(5,WD=max Qs,a) 时 ， 更 正 函 


数 为 1， 不 对 最 优 状 态 -动作 值 函数 做 任何 改动 ， 修 改 最 优 状 态 
-动作 值 函数 得 到 新 的 评价 函数 为 
A(s.u) =V" (s)x Bs,u) (13) 


M 


Qs, u)- maxQ(s, a) 时 ，B(s,z gl, A(s.u) 2 V'(s) ， 并 


没有 改动 最 优 状 态 值 函数 ， 但 是 当 QG' 岂 和 maxQktya) 时 ， 


V'(s) 的 值 会 被 缩小 ， 从 而 使 得 非 最 优 值 与 最 优 值 之 间 的 差距 
逐渐 放大 ， 因 为 神经 网 络 的 评估 误差 而 存在 的 过 估计 问题 便 会 
因此 而 减弱 ， 使 得 改进 的 最 优 状态 值 函 数 最 终 能 够 找到 一 个 较 
好 的 策略 。 
2.3 ”改进 的 深度 Q 网 络 

DeepMind 于 2013 年 首先 提出 了 深度 Q 网 络 ， 最 早 neural 
fitted Q-learninglsI(NFQ) 尝 试 使 用 类 似 深度 Q 网 络 的 网 络 结构 
去 解决 一 些 简单 的 控制 问题 。 但 是 由 于 NFQ 是 利用 弹性 反 向 
传播 (RPROP) 更 新 神经 网 络 的 参数 ， 同 时 由 于 神经 网 络 的 不 稳 
定性 ， 导 致 NFQ 无 法 处 理 较为 复杂 的 控制 问题 。 深 度 Q 网 络 
利用 目标 神经 网 络 以 及 回放 记忆 单元 极 大 的 提高 了 神经 网 络 的 
稳定 性 , 同时 使 用 随机 梯度 下 降 (SGD) 更 新 在 线 值 网 络 , 使 得 深 
度 Q 网 络 可 以 处 理 较为 复杂 的 控制 问题 ， 同 时 深度 Q 网 络 在 
训练 的 过 程 中 不 需要 添加 额外 的 数据 信息 ， 直 接 将 原始 数据 输 


> 
E 


不 是 最 优 动作 由 选择 出 来 ， 最 终 智能 体 所 学 习 到 的 策略 将 不 是 
最 优 策略 。 
22 ” 差 值 增长 


种 改进 的 思路 是 通过 降低 次 优 值 的 大 小 将 最 优 值 和 次 优 
值 之 间 的 差距 拉 大 ， 在 真实 值 与 估计 值 之 间 的 误差 相对 较 小 的 
情况 下 ， 即 便 评 估 模 型 存在 评估 存在 误差 也 不 会 影响 最 优 值 以 


及 非 最 优 值 的 次 序 ， 优 势 学 习 便 是 采用 类 似 的 思想 ， 优 势 学 习 
的 定义 为 
A(su) eV (5)-a(V'G)-Q (s.u)) (11) 


其 中 : u 为 状态 s 下 所 采取 的 动作 ， 未 必 是 最 优 动 作 ,公式 中 的 
第 二 项 即 为 最 优 值 和 非 最 优 值 之 间 的 差 值 ， 也 是 非 最 优 值 被 缩 
小 的 值 ， 可 以 看 出 ， 优 势 学 习 对 于 不 同 非 最 优 值 的 缩小 是 不 合 
里 的 ， 它 对 离 最 优 值 越 远 的 状态 -动作 值 缩小 的 程度 越 大 ,反而 
对 最 有 可 能 代替 最 优 值 被 Max 算 子 选 出 的 次 优 值 缩 小 最 小 , 这 


入 一 个 卷 积 神经 网 络 , 从 而 使 得 智能 体 对 数据 的 处 理 更 接近 人 
然后 使 用 强化 学 习 中 的 Q-learning, 通过 与 环境 进行 交互 , 得 到 
带 有 奖赏 值 的 样本 数据 ， 从 而 更 新 在 线 值 网 络 的 参数 ， 经 过 一 


定 的 时 间 步 ， 将 在 线 值 网 络 的 参数 复制 到 目标 值 网 络 ， 利 用 
标 值 网 络 计算 目标 值 ， 在 线 值 网 络 以 及 目标 值 网 络 的 更 新 如 图 
1 所 示 。 
随机 梯度 计算 目标 值 y 
下 降 函 数 
id e" 
i T 
ü SÉ 
o 
b. id x 
选取 最 优 动作 经 过 一 定 的 时 间 
环境 | | 在 线 值 网 络 2ER yo 目标 值 网 络 
——1 当前 状态 — 
当前 状态 以 及 所 
选取 的 动作 
记忆 单元 TREUR 
i 回放 记忆 单元 ARE 
图 1 深度 Q 网 络 运行 流程 图 
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其 中 样本 数据 《记忆 单元 ) 的 采集 和 使 用 通过 回放 记忆 单元 实 


现 , 一 个 记忆 单元 为 一 个 四 元 组 (5,a,7,s) ， 其 中 s 是 当前 的 状 


态 ; 4 是 当前 状态 下 所 采取 的 动作 ; r 是 智能 体 在 状态 S 下 采 


取 动 作 4 所 获得 的 奖赏 ，s' 是 智能 体 在 状态 s 下 采取 动作 a 所 
到 达 的 下 一 步 状 态 。 众 多 的 四 元 组 构成 一 个 回放 记忆 单元 ,外 


以 概率 随机 选择 一 个 动作 a 。 
否则 以 1~s 的 概率 执行 4=ar8max Qai) , 


智能 体 在 模拟 环境 中 执行 动作 4a ， 观 察 得 到 的 奖 


放 记 忆 单 元 中 历史 数据 的 利用 采用 随机 抽样 的 方式 ， 以 此 来 打 
破 数据 之 间 的 关联 性 。 用 抽样 得 到 的 数据 训练 卷 积 神经 网 络 ， 


采用 在 线 值 网 络 得 到 当前 状态 下 的 估计 值 ， 利 用 目标 值 网 络 表 


赏 值 7 以 及 下 一 步 的 状态 s ， 对 于 原始 图 像 进行 预 处 理 得 到 儿 。 
将 记忆 单元 (pa,r, p) 存 入 回放 记忆 单元 DD 中 ， 


4u-a, 


从 回放 记忆 单元 D 中 随机 抽取 minibatch 个 记忆 


示 当 前 状态 下 的 目标 值 ， 计 算 当前 状态 下 估计 值 和 目标 值 之 间 


的 误差 ， 利 用 随机 梯度 下 降 便 可 以 更 新 在 线 值 网 络 ， 模 拟 了 Q- 


learning 的 迭代 过 程 ， 也 保证 了 神经 网 络 的 收敛 性 。 


深度 Q 网 络 采用 一 个 简化 了 的 状态 值 函数 求 取 目标 值 : 


y =V*(s;0') =r + y max, Q'(s',a'; 0^) 


(14) 


深度 Q 网 络 利 用 6 表示 在 线 值 网 络 , 利用 9' 表示 目标 值 网 
络 ， 为 了 使 得 本 文 提 出 的 更 正 函 数 能 够 应 用 到 深度 强化 学 习 算 


法 中 ， 必 须 对 更 正 函数 进行 建 模 。 
2.3.1 建 模 


在 深度 Q 网 络 中 , 目标 值 网 络 的 输出 实现 对 目标 值 


标 值 的 更 改 ,所 以 本 文 利用 目标 值 网 络 对 更 正 函数 进 
将 当前 状态 所 对 应 的 图 像 经 过 处 理 后 输入 目标 值 网 络 ， 


m. # Qao maxQG a0) 时 ， 令 更 正 函 数 为 


的 建 模 ， 


在 线 值 网 络 实现 对 估计 值 的 建 模 ， 本 文 所 引入 的 更 正 函 数 是 对 


行 建 模 。 
在 输出 


1 , X 


右 


Q(s,a;0^) = max Q(s,a;0') ht, ZE QCs,a;0') > 0 时 ,得 到 更 正 函数 


pe <1， 即 非 最 优 值 会 被 缩小 。 
A(s.u; 8") 2 V" (s;0")x BGs,u; 0") 


u 为 状态 s 下 所 采取 的 动作 ， 来 自 于 回放 记忆 单元 中 的 历 


(15) 


史 数 据 , 为 在 线 值 网 络 输出 层 的 最 大 状态 -动作 值 所 对 应 的 动作 ， 


即 max Q' (s,a:0) ,但 是 随 着 智能 体 与 环境 的 不 断交 互 ， 


在 线 值 


网 络 的 模型 会 被 不 断 更 新 ， 历 史 模 型 所 选择 的 结果 未 必 和 最 新 


模型 所 选择 的 结果 相同 ， 这 就 为 实现 本 文 所 提出 的 更 J 
建 模 带 来 了 可 能 。 
2.3.2 训练 


FE 函数 的 


利用 本 文 提出 的 更 正 函 数 重 新 定义 深度 Q 网 络 (DQN)， 


得 到 改进 的 DQN 算法 (Corrected-DQN): 


初始 化 回放 记忆 单元 D， 容量 为 N ,目标 值 网 络 的 更 新 步 


长 Cs 


的 权 值 9， 其 中 0=0 。 


用 随机 权 值 6 初始 化 在 线 值 网 络 ， 同 时 初始 化 目标 值 网 络 


初始 化 折扣 因子 XY ， 更 正 函 数 的 底数 b，episode=M。 


重复 (每 一 个 episode )， 直 到 episode <0. 


初始 化 状态 5 ， 并 且 对 于 原始 图 像 进行 预 处 
$= 6(5) ,episode=episode-1。 
重复 (对 于 每 一 个 episode 中 的 每 一 步 )。 


理 得 到 


E 
a 
o 


计算 更 正 函 数 。 


1 


LK 


Q(0,a;0') max Q(9,a;6") 


B(ó.a;0)- | 
pg ) 否则 


计算 目标 值 。 
V'($)x B(f,a) 
aiit V (6) 为 


r 如 果 下 一 状态 是 结束 态 
rt ymax,Q(¢',a';0') 其 它 


em 
ll 
心 
一 、 
RS 
a 
Œ 
I 


AL 
X 

ah 
> 


V'(9) -| 


计算 损失 函数 (>-C( 办 a;9)) 并 通过 梯度 下 降 更 
新 在 线 值 网 络 的 参数 0 。 
每 经 过 C 步 ， 令 9 =0 。 
结束 循环 。 
结束 循环 。 


3 ”实验 结果 与 分 析 


3.1 实验 设计 

为 了 验证 Corrected-DQN 的 性 能 ， 本 文 在 Arcade Learning 
Environment(ALE) 以 及 OpenAI Gym 两 种 实验 环境 下 对 NIPS- 
DQN 和 Corrected-DQN 做 对 比 实验 。 

在 实验 环境 ALE 下 , 采用 和 NIPS-DQNWI 完 全 相同 的 实验 
环境 ， 同 时 为 了 提高 计算 速度 使 用 Tensorflow-GPU 1.2, GPU 
型 号 为 Nvidia Quadro P6000， 为 了 减少 算法 对 算 力 的 要 求 ， 本 
文 直接 使 用 文献 [7] 所 述 的 NIPS-DQN 算法 作为 baseline。 在 
Playing Atari 2600 游戏 中 最 为 经 典 的 控制 问题 : breakout、 
seaquest, phoenix, krull, amidar 上 对 算法 NIPS-DQN 以 及 
Corrected-DQN 进行 了 对 比 。 本 文采 用 原始 论文 中 所 给 出 的 实 
验 参 数 ， 其 中 回放 记忆 单元 的 大 小 初始 化 为 1000000， 即 可 以 
存放 1000000 个 样本 数据 ; 折扣 因子 初始 化 为 0.95， 更 正 函 数 
的 底数 5 初始 化 为 0.95， 以 步 长 0.05 减少 到 0.5; 贪心 算法 中 
进行 探索 的 概率 = 随 着 步 长 的 增加 由 1 逐渐 减少 到 0.1; 算法 的 
输入 数据 直接 便 是 Playing Atari 2600 视频 游戏 的 原始 图 像 ， 图 
像 的 大 小 为 210x210， 同 时 带 有 128 种 不 同 的 颜色 ， 对 图 像 进 
行 预 处 理 ， 生 成 大 小 为 84x84 的 灰 度 图 。 设 计 双 网 络 结构 : 在 
线 值 网 络 以 及 目标 值 网 络 。 两 个 网 络 都 是 卷 积 神经 网 络 ， 并 且 
网 络 的 结构 完全 一 样 ， 两 者 仅 权 值 不 同 ， 目 标 值 网 络 的 权 值 周 
期 性 的 拷贝 于 在 线 值 网 络 ， 周 期 设置 为 10000 步 。 在 线 值 网 络 


n 
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两 个 卷 积 层 和 两 个 全 连接 层 构 成 , 第 一 个 卷 积 层 有 16 个 8x8 
大 小 的 滤波 器 ,， 步 长 为 4; 第 二 个 卷 积 层 有 32 个 4x4 大 小 的 滤 
波 器 ， 步 长 为 2， 输入 为 20x20x16 的 向 量 空间 ， 输 出 9x9x32 
大 小 的 向 量 空间 , 激活 函数 为 ReLU ; 第 一 个 全 连接 层 有 256 个 
神经 元 ; 第 二 个 全 连接 层 神经 元 个 数 为 动作 空间 的 大 小 ， 输 出 
状态 s 在 各 个 可 能 采取 的 动作 上 的 估计 值 。 利 用 在 线 值 网 络 得 
到 当前 状态 的 估计 值 ， 随 机 的 从 回放 记忆 单元 抽取 32X4 个 样 
本 数据 ， 以 此 打破 样本 数据 之 间 的 关联 性 。 每 次 输入 在 线 值 网 
络 的 都 是 连续 的 4 个 状态 联合 的 图 像 ， 每 一 个 状态 图 像 的 大 小 
为 84X84， 状 态 所 对 应 的 图 像 经 过 预 处 理 后 输入 在 线 值 网 络 ， 
输出 层 的 输出 对 应 的 是 可 能 的 输出 动作 的 状态 -动作 值 ， 通 过 
Max 算 子 选择 最 大 的 状态 一 动作 值 所 对 应 的 动作 为 最 优 动 作 ， 
智能 体 执行 最 优 动 作 , 从 环境 获得 奖励 ,并 且 达 到 下 一 个 状态 ， 
得 到 记忆 单元 所 对 应 的 四 元 组 ， 将 记忆 单元 按 顺序 插入 回放 记 
忆 单 元 中 。 若 回放 记忆 单元 的 空间 已 经 被 占 满 ， 则 从 第 一 个 记 
忆 单 元 开始 覆盖 之 前 的 记忆 单元 ,利用 目标 值 网 络 求 得 目标 值 ， 
将 目标 值 与 估计 值 相 减 ， 利 用 随机 梯度 下 降 更 新 在 线 值 网 络 ， 
每 经 过 10000 个 时 间 步 ， 将 在 线 值 网 络 的 参数 复制 给 目标 值 网 
络 ， 通 过 目标 值 网 络 对 更 正 函 数 进行 建 模 ， 使 得 更 正 函 数 能 够 
于 深度 Q 网 络 。 

在 实验 环境 OpenAIGym F, 由 于 OpenAI Gym 与 ALE f£ 
在 诸多 不 同 ， 所 以 本 文 对 相应 的 实验 参数 进行 调整 。 回 放 记 忆 
单元 的 大 小 调整 为 为 10000， 目 标 值 网 络 的 权 值 更 新 周期 调整 
为 1000， 每 一 个 epoch 调整 为 10 000; 同时 由 于 OpenAI Gym 
中 所 选取 的 三 个 控制 问题 Acrobot、CartPole 以 及 MountainCar 
所 返回 的 状态 不 再 是 图 像 而 是 相关 的 特征 (位置, 速度 等 )， 问 
题 规模 大 幅 减少 ， 所 以 不 需要 卷 积 层 对 原始 数据 进行 降 维 ， 从 
而 简化 了 网 络 结构 ， 其 余 实验 参数 不 改变 ， 实 验 的 过 程 中 ， 无 
须 进 行 图 像 处 理 这 一 步 ， 直 接 将 返回 的 状态 输入 网 络 即 可 ， 其 
余 过 程 也 不 改动 。 

3.2 ”实验 结果 与 分 析 

在 ALE 中 ， 本 文 将 Corrected-DQN 和 NIPS-DQN 分 别 在 
控制 问题 ，seaquest、phoenix、amidar、breakout、krull 进行 实 
验 ， 在 平均 奖赏 值 、 算 法 的 稳定 性 以 及 收敛 速度 三 个 方面 对 两 
种 算法 进行 分 析 。 平 均 奖赏 值 越 高 说 明 算法 的 性 能 越 好 ， 通 过 
实验 比较 发 现 , Corrected-DQN 相 比 较 NIPS-DQN, 在 控制 问题 
seaquest、phoenix、amidar、breakout、krull 上 取得 了 更 高 的 平 


LH 


nia 


应 


均 奖 赏 值 ,说 明 改 进 的 算法 Corrected-DQN 在 控制 问题 seaquest, 


phoenix, amidar, breakout, krull 上 取得 了 更 好 的 策略 ， 智 能 
有 着 更 好 的 性 能 ; 由 于 使 用 神经 网 络 作为 Q 表 的 泛 化 模型 ， 使 
得 深度 Q 网 络 存在 着 不 稳定 的 问题 ， 为 了 缓解 这 个 问题 ， 深 度 
Q 网 络 采 用 了 记忆 回放 机 制 以 及 双 网 络 结构 从 而 提高 了 深度 Q 
网 络 的 稳定 性 ， 但 是 从 平均 奖赏 值 较 大 的 波动 中 可 以 看 出 ， 神 
经 网 络 依然 是 不 稳定 的 ,通过 实验 发 现 ,通过 缓解 过 估计 问题 ， 
智能 体 进行 动作 选择 时 有 更 大 的 概率 选择 出 最 优 动作 ， 


Corrected-DQN 在 Playing Atari 2600 游戏 中 的 控制 问题 seaquest、 


phonix、krull 上 取得 了 更 加 稳定 的 策略 ; TE krull 上 有 着 


收敛 速度 。 


平均 奖赏 值 


一 一 DQN 


一 一 Corrected-DQN | Q 


1 21 4 61 


81 3101 121 141 161 181 201 
epoch 


(a)seaquest 


一 一 DQN 


一 一 Corrected-DQN | 得 


人 A A à 
81 3101 121 141 161 181 201 
epoch 


1 21 41 61 


(b)phoenix 


4j | 一 一 Corrected-DQN 


一 一 DQN 


(c)amidar 


如 图 2 


图 2  Corrected-DQN 以 及 NIPS-DQN 在 ALE 4 
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问题 上 的 性 能 比较 
中 的 (a)~(e) 所 示 ，Corrected-DQN HE 15:1 
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seaquest, phoenix. amidar. breakout, krull 上 取得 了 比 NIPS- 
DQN 更 高 的 平均 奖赏 值 ， 说 明 相 比较 NIPS-DQN, 改进 的 算法 
Corrected-DQN 的 确 获 得 了 更 优 的 策略 ， 同 时 发 现在 控制 游戏 
krull 上 Corrected-DQN 取得 了 更 快 的 收敛 速度 ,仅仅 通过 20 个 
epoch〔 每 一 个 epoch 大 概 是 50000 步 ) 便 可 以 稳定 在 一 个 较 高 
的 水 平 ; 在 算法 的 稳定 性 方面 ， 通 过 在 控制 问题 seaquest, 

phoenix 以 及 krull 上 的 实验 对 比 可 以 发 现 ， 相 比较 NIPS-DQN 
的 实验 折线 图 ，Corrected-DQN 的 实验 结果 更 趋 平稳 ， 说 明 在 
这 几 个 控制 问题 上 ， 神 经 网 络 的 稳定 性 得 到 了 进一步 的 提高 。 

但 同时 本 文 发 先 无 论 是 Corrected-DQN 还 是 NIPS-DQN 在 控制 


算法 Corrected-DQN 相 比 NIPS-DQN 有 着 更 好 的 稳定 性 ， 震 荡 
的 幅度 降低 ， 同 时 计算 总 共 250 次 epoch 的 累计 奖赏 再 求 平均 
之 后 得 到 : Corrected-DQN 的 平均 奖赏 值 为 65，NIPS-DQN 的 
平均 奖赏 值 为 50， 说 明 Corrected-DQN 也 寻 得 了 更 好 的 策略 。 
从 图 3 中 的 (b) 中 可 以 看 到 ， 在 控制 问题 MountainCar 中 ， 改 进 
的 算法 Corrected-DQN 相 比 NIPS-DQN 达到 了 更 多 次 目标 ， 可 
以 说 明智 能 体 最 终 寻 得 了 更 优 的 策略 ; 但 是 在 图 3 中 的 (c) 中 ， 
不 能 直观 的 看 出 Corrected-DQN 和 NIPS-DQN RRAZ, 经 
过 计算 总 共 250 次 epoch 的 累计 奖赏 再 求 平均 之 后 得 到 : 

Corrected-DQN 的 平均 奖赏 值 为 1401，NIPS-DQN 的 平均 奖赏 


问题 phoenix 上 都 会 出 现 平均 奖赏 值 为 0 的 情况 ， 这 在 一 定 程 
度 上 说 明 两 种 算法 都 还 有 很 大 的 提高 空间 。 
在 OpenAI Gym 中 ， 本 文 将 Corrected-DQN 和 NIPS-DQN 


值 为 896。 因 此 可 以 说 明 在 控制 问题 CartPole 上 ,Corrected-DQN 
仍然 学 习 到 了 更 优 的 策略 。 但 是 同时 本 文 发 现 ， 相 比较 实验 环 
境 OpenAI Gym，Corrected-DQN 在 实验 环境 ALE 中 性 能 提升 


分 别 在 控制 问题 : Acrobot、CartPole 以 及 MountainCar 进行 实 
验 ， 其 中 以 平均 奖赏 值 来 评价 Corrected-DQN 和 NIPS-DQN 在 
空 制 问题 CartPole 上 的 性 能 ， 以 一 个 epoch (10000 步 ) 智能 体 
所 到 达 目 标的 次 数 来 评价 Corrected-DQN 和 NIPS-DQN 在 控制 


问题 Acrobot、MountainCar 上 的 性 能 。 
120 


一 一 DQN 
100 - 


—/»— Corrected-DQN |, 7 


80 - 


到 达 目 标的 次 数 
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A 由 AA 
1 21 41 61 81 101 121 141 161 181 201 221 241 
eooch 


(a)Acrobot 
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一 一 Corrected-DQN 山 
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到 达 目 标的 次 数 
5.88 


epoch 


(b)MountainCar 


6000 4 | 一 PAN 


一 一 Corrected-DQN 


epoch 


(c)CartPole 


图 3  Corrected-DQN 以 及 NIPS-DQN 在 OpenAI Gym 中 三 种 控制 问 
题 上 的 性 能 比较 
从 图 3 中 的 (a) 可 以 看 到 ， 在 控制 问题 Acrobot 中 ， 改 进 的 


的 更 加 明显 ， 初 步 分 析 认 为 ， 这 是 由 于 OpenAI Gym 中 所 选取 
的 控制 问题 相 比 较 ALE 中 所 选取 的 控制 问题 的 输入 规模 大 大 
降低 所 致 ， 智 能 体 无 法 获取 更 多 的 数据 特征 ， 从 而 导致 算法 的 
性 能 降低 。 


4 ”结束 语 


本 文 针 对 深度 Q 网 络 中 存在 的 过 估计 问题 , 提出 了 一 种 基 
于 差 值 增长 的 深度 强化 学 习 算法 ,通过 设计 一 个 新 的 更 正 函数 
使 得 距离 最 优 值 越 近 的 非 最 优 值 缩小 的 比例 越 大 ， 反 之 ， 使 
距离 最 优 值 越 远 的 非 最 优 值 缩小 的 比例 越 小 ， 从 而 使 得 最 优 
与 非 最 优 值 的 差 值 逐 渐 增 大 ， 最 终 降低 非 线 性 估计 模型 的 评 
误差 对 动作 选择 的 影响 ， 缓 解 了 过 估计 问题 ， 智 能 体 学 习 到 
更 优 的 策略 。 

在 Playing Atari 2600 视频 游戏 以 及 OpenAI Gym 中 ， 改 进 
的 算法 Corrected-DQN 在 平均 奖赏 值 、 算 法 的 稳定 性 以 及 收敛 
性 都 比 NIPS-DQN 有 一 定 程度 的 提高 ， 因 此 可 以 得 出 结论 ， 将 
本 文 提出 的 更 正 函数 应 用 在 深度 Q 网 络 中 可 以 有 效 的 缓解 深度 
Q 网 络 存在 的 过 估计 问题 。 
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